Exploración eficiente para optimización iterativa de preferencias Nash La exploración explícita clave para optimizar preferencias Nash en modelos de lenguaje: nuevo algoritmo logra mejor equilibrio y menor arrepentimiento. 2026-06-02 · 4 min